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Транслящя природно-мовних запит!в 
до бази даних у ЗОГ.-запити 


В статье рассматриваются проблемы трансляции естественно-языковых запросов в запросы ЗОГ-языка. 
Предлагаются методы и алгоритмы, позволяющие интерпретировать ЕЯ-запрос ограниченным набором 
шаблонов ЗОГ-запроса. 
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У стати розглядаються проблеми трансляцй природно-мовних запитв у запити ЗОГ-мови. Пропонуються 
методи та алгоритми, що дозволяють 1нтерпретувати ПМ-запит обмеженим набором шаблонв ЗОГ--запиту. 
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Введение 

У многих информационных систем основным ядром является ЗОГ-ориенти- 
рованные базы данных (БД). Для обычного пользователя, не разработчика БД, знание 
языка ЗОГ, и всех тонкостей строения базы данных требует дополнительных усилий 
и не всегда оправдано. Обычно для пользователя БД, если он хочет получить инте- 
ресующую его информацию, предлагаются некоторые формы, которые надо заполнить. 
По введенным данным программа формирует ЗОГ-запрос. Изначально эти формы со3з- 
даются для определенного запроса, например, получения данных о сотрудниках (со- 
труднике). Чтобы не выводить все данные, пользователь заполняет определенные 
поля формы и затем получает информацию. Это, с одной стороны, хорошо, система 
запрашивает только релевантные данные. С другой — плохо, потому, что пользова- 
телю требуется время, чтобы найти и открыть нужную форму, затем не ошибиться в 
задании данных (подспорьем является выпадающие списки с правильными значениями, 
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но если список большой, то понадобится время, чтобы найти требуемую строку и 
кликнуть на ней). При ЕЯ-запросе необходимость в формах отпадает, пользователь 
указывает только ту информацию, которая его интересует, чем экономит свое время. 
Поэтому задача построения естественно-языкового (ЕЯ) пользовательского интер- 
фейса, позволяющего взаимодействовать с БД на естественном языке, является ак- 
туальной. Целью данной статьи является уменьшение неоднозначности смысловой 
интерпретации естественно-языковых запросов к БД. 


Состояние проблемы 


Наиболее распространенными подходами создания пользовательского интерфейса 
трансляции ЕЯ-запросов в запросы ЗОГ. являются подходы, основанные на синтакси- 
ческом, семантическом анализах и шаблонах [1]. Синтаксическое представление запроса 
строится на анализе членов предложения: подлежащего, сказуемого, прямого допол- 
нения и т.п., которые определяются с помощью морфологических характеристик. Но 
для однозначной интерпретации этих характеристик недостаточно, так как они не 
отражают смысла запроса в полной мере. 

Второй подход, основанный на семантике, ближе к смыслу запроса [1]. В нем 
используется синтаксическая информация из предыдущего подхода, а также информация 
из тезаурусов. С помощью тезаурусов строится семантическое представление запроса. 
Основная задача при этом — отсечь ненужные смыслы, постараться выделить с по- 
мощью синтаксических связей достоверные семантические конструкции. Основная 
сложность данного анализа — типичные естественно-языковые запросы, которые, как 
правило, не имеют правильных синтаксических конструкций, что обусловлено воль- 
ным словоизменением, большим количеством имен собственных и сокращений, иг- 
норирования правил пунктуации [1]. 

Третий подход к анализу естественно-языковых запросов основан на шаблонах. 
Представителем шаблонного подхода является система ЕпеП$В Оцегу от М!сгозо&, 
основанная на синтаксически-ориентированных шаблонах, связываемых с моделью 
предметной области, и через нее — со схемой базы данных. Система имеет ряд 
существенных недостатков: 

1) пользователь может употреблять только правильные входные предложения; 

2) в процессе эксплуатации неизбежно приходиться модифицировать и расширять 
знания о языке и окружающем мире, заложенные в ЕЯ-интерфейсе при его разработке, 
что является трудоёмкой задачей, которая не может быть выполнена пользователями 
системы; 

3) если система не может найти ответ на запрос, то она не способна объяснить 
пользователю причину неудачи; 

4) позволяет строить естественно-языковые интерфейсы только для английского 
языка и работает только с Мисгозой ЗОГ. Зегуег. 

Среди отечественных технологий, позволяющих строить ЕЯ-интерфейсы к реля- 
ционным базам данных, наиболее известной является технология шВазе [2], [3], ос- 
нованная на шаблонном подходе. Необходимо заметить, что на сегодняшний день не 
существует системы, адекватно реализующей шаблонный подход к русскоязычным 
ЕЯ-запросам. Таким образом, рассмотренные методы не решают задачу понимания 
русскоязычных запросов к БД и необходим поиск новых подходов. 


Исходные положения 


Определим отличительные черты процесса понимания ЕЯ-запросов. Во-пер- 
вых, ЕЯ-запрос формируется в диалоге пользователя с БД, поэтому некоторые се- 
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мантические составляющие непосредственно не содержатся в запросе, а подразуме- 
ваются или устанавливаются по результатам предыдущего диалога. Во-вторых, должна 
ли система задавать наводящие вопросы в случае грамматических и синтаксических 
ошибок. Это увеличивает время на получение заданной информации и раздражает 
пользователя тем, что надо отвечать на лишние вопросы. Поэтому мы приняли сле- 
дующие начальные условия: 

—в ЕЯ-запросе допускается произвольный порядок слов; 

— в ЕЯ-запросе допускаются грамматические ошибки, не искажающие смысл 
запроса; 

—в ЕЯ-запросе допускаются длинные и короткие выражения, например, «пока- 
зать адреса всех сотрудников»; «все адреса» или просто «адреса»; 

— система не задает наводящих вопросов, если не удается построить ЗОГ-за- 
прос, то система отвечает, что не понимает и советует переформулировать запрос 
или проверить грамматику; 

— если пользователь получит не ту информацию, которую ожидал, то это ошиб- 
ка пользователя, а не системы. 


Постановка задачи 


Идея. Объект имеет смысл, если мы можем мыслить о нем или его свойствах 
путем формулирования вопросов (запросов) на ЕЯ. 

В [4] предложена модель, согласно которой смысл имеет проблемная область 
ситуаций (ПОС). Одной из оставляющих ПОС являются образы предметной области. 
Существует также языковая проблемная область ситуаций (ЯПОС) — формальная 
система для выражения ситуаций и образов предметной области средствами ЕЯ [4]. 
Суть ЯПОС в том, что образ и его свойства не зависят от естественного языка. В 
естественном языке они обознаются словами, словосочетаниями, порядок и построение 
которых определяется правилами грамматики, но, как известно, грамматически пра- 
вильное предложение может быть бессмысленным. Поэтому мы считаем, что текст 
или ЕЯ-выражение смысла не имеют. Они содержат языковые конструкции, которые 
указывают на смысловые составляющие определенной предметной области, которые 
существуют независимо от языка. Таким образом, возможны два варианта анализа 
запросов на ЕЯ: 

ЕЯ-ЗАПРОС — СМЫСЛЫ БД - ЗОГ-ЗАПРОС, 
ЗОГ-ЗАПРОС — СМЫСЛЫ БД - ЕЯ-ЗАПРОС. 

В первом случае предполагается, что нескольким ЕЯ-запросам соответствует один 
$ОГ-запрос, во втором — одному ЗОГ-запросу соответствует несколько ЕЯ-запросов, 
т.е. процесс анализа можно проводить в прямом направлении и в обратном, или одно- 
временно в обоих. Отсюда следует, что необходимо решить следующий ряд задач: 

1. Определить смысловые составляющие БД. 

2. Построить модель интерпретации ЗОГ-запроса смысловыми составляющими БД. 

3. Построить модель интерпретации ЕЯ-запроса смысловыми составляющими БД. 


Естественно-языковая модель запроса к базе данных 


Смысловые составляющие рассмотрим на примере базы данных отдела кадров 
табл. 1. 

Пусть есть некоторое множество часто задаваемых запросов относительно ад- 
реса. Этими запросами могут быть: «Где живет Иванов?», «Где живут работники?» 
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«Список адресов работников», «Все адреса работников», «Адреса всех работников 
бухгалтерии», «Адреса работников», «Адреса всех программистов», «Адреса Ива- 
новых?». 


Таблица 1 — Таблица «За базы данных отдела кадров 


№|  эшпате Ад@гез$ Аррошнтепе РВопе За[агу 
1 Иванов Донецк, ул. Кирова [7, кв. 45 Программист 4564715 1500 


2 Рыбкин Донецк, ул. Горького, 5 Бухгалтер 4568774 2000 


Все эти вопросы покрываются тремя шаблонами ЗОГ-запросов. 
1. Запрос на всю информацию. 
5ЕГЕСТ, зигпате, Аа@ге55, Арротитет, Рйопе, Заагу 
ЕКОМ 5} 

2. Запрос на все данные одного атрибута (столбца). 

5ЕГЕСТ Аааге55 
ЕКОМ УЗа} 

3. Запрос на данные одного столбца с простым условием. 

ъЕГЕСТ Аааге55 
ЕКОМ 5За} 
УНЕКЕ 5итпате = Иванов 

Ограничимся этими запросами. По определению ЗОГ-запрос не может иметь 
несколько значений, т.е. его синтаксис совпадает с семантикой. В указанных выше 
5ОГ-запросах сущностями БД является таблица с данными, столбцы таблицы и зна- 
чения свойств (данные в ячейках столбов). В самих запросах они обозначаются как 
имя таблицы, имена столбцов и данные определенного типа. Отметим, что изначаль- 
но ЗОГ-запрос не существует, независимо от программиста, программист должен 
его создать. Смоделируем процесс создания программистом ЗОГ-запроса по следую- 
щему заданию: «Составьте список адресов всех Ивановых». В данном случае про- 
граммист должен определить шаблон ЗОТ-запроса и все его параметры. 

Основным параметром в ЗОГ-запросе является параметр ЕКОМ. Его значением 
является имя таблицы 51а}. На это имя программиста наталкивает слово «адресов» 
или словосочетание «список адресов», так как он помнит, что в БД отдела кадров 
есть столбец, в котором указываются адреса сотрудников. Также на это имя его может 
натолкнуть осознание того, что он в данный момент работает с БД отдела кадров. 
Другими словами, это имя извлекается из головы программиста или контекста на 
основании мышления, так как прямого указания на него в запросе нет. На то, что это 
шаблон № 3, указывает слово «Ивановых», так как в сознании программиста оно 
связано со значением Иванов и знаний о том, что в ЗОГ-запросе можно указывать 
условия для сокращения выборки. Это условие указывается в операторе УНЕКЕ по 
определенным правилам. В данной статье рассматривается только правило на равен- 
ство. Для параметра 5ЕГЕСТ в сознании программиста на столбец с именем Ад@ге55 
указывает слово «адресов». Для употребления параметра УНЕКЕ и условием на ра- 
венство со значением $итпате = Иванов указывает слово «Ивановых», так как зна- 
чение Иванов может быть только в этом столбце и не может быть в других, напри- 
мер, Роз, Рйопе, Заату. Можем сказать, что Зитпате и Иванов, тоже находится в 
контексте. Во всех рассмотренных случаях нет прямого указания на параметры ЗОГ- 
запроса. Все они извлекаются программистом из контекста. Таким образом, в ЗОГ- 
запросе явно указываются сущности БД, а в ЕЯ-запросе находятся косвенные ука- 
затели на них. Следовательно, в контексте системы должны быть знания, как перейти от 
слов и выражений ЕЯ к значениям параметров ЗОГ-запроса и знания о языке ЗОГ. 
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Уточним теперь сущности БД в системе трансляции одних запросов в другие. 
Воспользуемся определениями из [5] и распространим их на БД. 

Образ — строка или запись в таблице БД. 

Класс образов — таблица в БД. 

Атрибут — столбец таблицы (класса образов). 

Значение атрибута — код, сформированный по заданным правилам и храня- 
щийся в ячейке столбца (последовательность АЗСП символов, число и другие типы 
данных). 

Естественно-языковая форма (ЕЯ-форма) — слова и последовательности 
слов, употребляемые в предметной области для обозначения смысловых составляющих 
базы данных. 

Контекст — знания о способах определения кода таблицы, кодов столбцов и зна- 
чений атрибутов образа, с которыми связаны ЕЯ-формы, протокол диалога и негласные 
соглашения, основанные на принципах функционирования реляционных БД. 

Для того чтобы «мыслить» над введенными сущностями БД, примем, что в системе 
они обозначаются уникальными кодами, не совпадающими с ЕЯ-составляющими и име- 
нами в ЗОГ-запросах. 

Обобщая вышеизложенное, ЕЯ-модель запроса к БД представим как совокупность 
множеств ЕЯ-форм, которые ассоциируются с образами, атрибутами и значениями 
атрибутов БД на основе правил и данных контекста. Для рассматриваемых ЗОГ- 
шаблонов модель представляется семеркой: 


МТ, = (МЕЕУ,, ,, МГУ, У, 5, О, С), 


где МГЕУ/ — множество основ ЕЯ-форм и морфологические правила для значе- 
ний атрибутов; И — множество правил определения соответствий ЕЯ-форм значе- 
ниям атрибутов БД; МГ.ЕУ — множество основ ЕЯ-форм и морфологические правила 
для атрибутов; У- множество правил определения соответствия ЕЯ-форм атрибутам 
БД; 5 — синтаксические правила для всего ЕЯ-запроса для указания пользователю на 
ошибки; О — знания о языке ЗОГ. и его версиях; С — контекста (знания о БД, правила 
ведения диалога и предыдущие результаты диалога). 

Множество М.Е’ состоит из подмножеств, в которых указываются основы слов и 
морфологические признаки, например, для слов «Иванов», «Иванова», «Ивановых», ко- 
торые могут быть в ЕЯ-запросе. 

Правила множества \ определяют, что в БД словам «Иванов», «Иванова», 
«Ивановых» соответствует значение Иванов, которое может быть в одной или не- 
скольких ячеек в столбце, где хранятся фамилии. Для ЗОГ-запроса БД отдела кадров 
этот столбец имеет имя 5итате. 

Множество №МГЕУ состоит из подмножеств, в которых указываются основы слов и 
выражения (сочетания слов) и морфологические признаки, например, для слов «где жи- 
вет», «где живут работники», «список адресов работников», «все адреса работни- 
ков», «адреса работников», которые могут быть в ЕЯ-запросе. 

Правила множества У определяют, что в БД словам «где живет», «где живут 
работники», «список адресов работников», «все адреса работников», «адреса работ- 
ников» соответствует столбец, в котором хранятся адреса. Для ЗОГ-запроса БД от- 
дела кадров этот столбец имеет имя Ад@!е55х. 

В целом процесс формирования ЗОГ-запроса по ЕЯ-запросу представлен на рис. 1. 

В дальнейшем будут разрабатываться модели на запросы к нескольким 
столбцам и таблицам и с более сложными условиями. 
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Множества 
МГЕЕУ/, МЕЕУ Множество \/ Множество У Контекст С 
Выделить Выделить № 
РтНАНВОЕ ЕЯ-формы атрибут Построить 


$ОТ.--запрос 5ОГ-запрос 


Выделить 


значение 
атрибута 


Рисунок 1 — Процесс трансляции ЕЯ-запроса в ЗОГ-запрос 


Выводы 


1. В ЕЯ-запросе находятся косвенные указатели на параметры ЗОГ-запроса, 
которые интерпретируются только через контекст. 

2. Предложенный подход не накладывает ограничений на содержание и порядок 
слов ЕЯ-запроса. 

3. Подмножества модели разрабатываются отдельно, что позволяет наращивать 
эффективность системы в процессе эксплуатации и использовать их в разных БД. 

4. Трудности реализации данного подхода связаны в основном с выделением 
имен собственных: фамилий, географических названий и т.п., количество которых 
может быть значительным. 
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